년 8월 AI 및 로봇 연구 동향

년 8월 AI 및 로봇 연구 동향

1. 서론

2017년은 인공지능(AI)의 역사에서 단순한 진보의 해를 넘어, 근본적인 패러다임의 전환이 일어난 ’변곡점(inflection point)’으로 기록된다. 이 시기에 발표된 소수의 핵심 연구들은 현재 우리가 경험하고 있는 거대 언어 모델(LLM) 및 생성형 AI 시대의 기술적, 사상적 초석을 마련했다.1

본 보고서는 2017년 8월의 주요 동향을 포함하여 연중 발표된 AI 및 로봇 분야의 핵심 연구 성과를 총체적으로 분석하는 것을 목표로 한다. 2017년 8월에는 한국언론학보를 통해 알파고(AlphaGo)의 사회적 수용 과정에서 나타난 ‘의인화(anthropomorphism)’ 현상을 분석한 의미 있는 사회과학적 연구가 발표되었으며 3, 중국 베이징에서는 ’2017 세계 로봇 컨퍼런스’가 개최되어 지능형 사회로의 전환을 논의하는 등 기술과 사회의 접점에서 중요한 담론이 형성되었다.4

그러나 2017년의 진정한 기술사적 의의는 연중 발표된 세 가지 기념비적인 연구에 있다. 첫째, 구글 브레인(Google Brain) 및 구글 리서치(Google Research) 소속 연구진이 발표한 ‘트랜스포머(Transformer)’ 아키텍처는 순환 신경망(RNN)의 시대를 종결하고 현대 자연어 처리의 기반을 구축했다.1 둘째, 딥마인드(DeepMind)의 ’알파고 제로(AlphaGo Zero)’는 인간의 지식 없이 스스로 학습하여 인류 최고수를 능가하는 AI의 등장을 알리며 강화학습의 새로운 지평을 열었다.7 셋째, OpenAI의 ‘PPO(Proximal Policy Optimization)’ 알고리즘은 복잡했던 강화학습의 구현 장벽을 낮추어 연구의 대중화를 이끌었다.9 이 세 가지 성과는 각각 독립적인 동시에 상호 보완적으로 작용하며 AI 발전의 전선을 다각적으로 확장시키는 완벽한 폭풍을 형성했다. 이는 단순히 개별 기술의 발전이 아닌, 확장 가능한 아키텍처, 인간을 초월한 성능 패러다임, 그리고 실용적인 학습 알고리즘이라는 현대 AI의 세 기둥이 동시에 세워진 순간이었다.

본 보고서는 이러한 관점에서 출발하여, 제1장에서는 트랜스포머 아키텍처를 심층 해부하고, 제2장에서는 강화학습의 도약을 알파고 제로와 PPO를 중심으로 분석한다. 제3장에서는 알파고 의인화 연구를 통해 인간-AI 상호작용의 사회적 인식 문제를 조명하고, 제4장에서는 주요 학술대회의 동향을 통해 당시 학계와 산업계의 흐름을 살펴본다. 마지막으로, 2017년의 유산이 현재 AI 시대에 미친 지대한 영향을 종합하며 결론을 맺는다.

논문명 (Paper Title)주 저자/기관 (Lead Authors/Institution)발표 (Publication)핵심 기여 (Core Contribution)
Attention Is All You NeedAshish Vaswani, et al. / GoogleNIPS 2017 (June 2017, arXiv)순환/합성곱 신경망을 배제하고 어텐션 메커니즘만으로 구성된 ‘트랜스포머’ 아키텍처 제안. 병렬 처리 및 장기 의존성 문제 해결.
Mastering the Game of Go without Human KnowledgeDavid Silver, et al. / DeepMindNature (October 2017)인간 기보 데이터 없이 자가 대국 강화학습만으로 바둑을 정복한 ‘알파고 제로’ 개발. Tabula Rasa 학습 패러다임 제시.
Proximal Policy Optimization AlgorithmsJohn Schulman, et al. / OpenAIarXiv (July 2017)TRPO의 성능은 유지하면서 구현이 간단하고 안정적인 정책 경사 알고리즘 ‘PPO’ 제안. 강화학습 연구의 표준으로 부상.

2. 순환 신경망 시대의 종언과 트랜스포머의 부상

2.1 기존 시퀀스 변환 모델의 한계

2017년 이전, 자연어 처리와 같은 시퀀스 데이터를 다루는 분야는 순환 신경망(Recurrent Neural Networks, RNN)과 그 변형인 LSTM(Long Short-Term Memory)이 지배하고 있었다. 이 모델들의 핵심 철학은 인간이 문장을 순차적으로 읽고 이해하는 방식과 유사하게, 데이터를 시간 순서에 따라 하나씩 처리하는 재귀적(recurrent) 구조에 있었다.1 그러나 이러한 구조는 근본적인 한계를 내포하고 있었다. 가장 큰 문제는 ‘순차적 계산(sequential computation)’ 그 자체였다. 이전 단계의 계산 결과(h_{t-1})가 현재 단계의 계산(h_t)에 입력으로 사용되어야 했기 때문에, 본질적으로 병렬 처리가 불가능했다.6 이는 대규모 데이터셋과 모델에 대한 학습 시간을 기하급수적으로 증가시키는 심각한 병목 현상을 야기했다.

또한, ’장기 의존성 문제(long-term dependency problem)’는 RNN 계열 모델의 고질적인 난제였다. 문장이 길어질수록 시퀀스 초반의 중요한 정보가 뒤로 전달되는 과정에서 점차 희석되거나 소실되는 현상이다. LSTM이나 GRU(Gated Recurrent Unit)와 같은 모델들은 게이트(gate) 메커니즘을 도입하여 이 문제를 일부 완화했지만, 여전히 매우 긴 시퀀스에서는 정보의 완전한 보존에 어려움을 겪었다.1 이러한 한계들은 모델의 성능과 확장성을 제약하며, 시퀀스 처리 분야에 새로운 돌파구를 절실히 요구하고 있었다.

2.2 “Attention Is All You Need”: 트랜스포머 아키텍처 해부

2017년 6월, 구글 연구진(Ashish Vaswani 외 7인)은 arXiv에 “Attention Is All You Need“라는 도발적인 제목의 논문을 공개했고, 이는 같은 해 12월 NIPS 2017에서 공식 발표되었다.6 이 논문은 이름 그대로, 기존 모델의 근간이었던 재귀와 합성곱(convolution) 구조를 완전히 제거하고 오직 ‘어텐션(Attention)’ 메커니즘 하나만으로 시퀀스 변환 모델을 구축하는 ‘트랜스포머(Transformer)’ 아키텍처를 제안했다.1

2.2.1 인코더-디코더(Encoder-Decoder) 구조

트랜스포머는 전체적으로 입력을 받아 문맥 벡터로 압축하는 인코더와, 이 벡터를 바탕으로 출력 시퀀스를 생성하는 디코더로 구성된 전통적인 구조를 따른다. 논문에서는 인코더와 디코더 각각 6개의 동일한 레이어를 쌓은 스택(stack) 구조를 제시했다.11

  • 인코더: 각 인코더 레이어는 ’멀티-헤드 셀프 어텐션(Multi-Head Self-Attention)’과 ’위치 기반 피드포워드 신경망(Position-wise Feed-Forward Network)’이라는 두 개의 하위 레이어로 구성된다.

  • 디코더: 각 디코더 레이어는 인코더의 두 하위 레이어에 더해, 인코더 스택의 출력 전체에 대한 어텐션을 수행하는 ‘인코더-디코더 어텐션’ 레이어가 추가되어 총 세 개의 하위 레이어를 가진다.

또한, 각 하위 레이어의 입력과 출력을 더하는 ’잔차 연결(Residual Connection)’과 ’계층 정규화(Layer Normalization)’를 적용하여, 6개나 되는 깊은 레이어 스택에서도 정보 손실 없이 안정적인 학습이 가능하도록 설계했다.11

2.2.2 셀프 어텐션 (Self-Attention)

트랜스포머의 심장부라 할 수 있는 연산은 ’스케일드 닷-프로덕트 어텐션(Scaled Dot-Product Attention)’이다. 이는 문장 내의 모든 단어가 다른 모든 단어와 얼마나 관련이 있는지를 한 번에 계산하는 메커니즘이다. 이 관계는 세 가지 벡터, 즉 현재 단어를 나타내는 ‘쿼리(Query, Q)’, 다른 단어들의 레이블 역할을 하는 ‘키(Key, K)’, 그리고 다른 단어들의 실제 내용인 ’값(Value, V)’을 통해 계산된다.1 어텐션 값은 다음 수식으로 계산된다.

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
여기서 쿼리와 키의 내적(dot-product)을 통해 유사도를 계산하고, 소프트맥스 함수를 적용하여 전체 합이 1이 되는 가중치(attention weights)를 얻는다. 이 가중치를 값 벡터에 곱하여 최종 결과물을 산출한다. 특히, 벡터의 차원(d_k)이 클수록 내적 값이 지나치게 커져 소프트맥스 함수의 기울기가 0에 가까워지는 문제를 방지하기 위해, 내적 값을 $\sqrt{d_k}$로 나누어 스케일링하는 기법을 적용했다. 이는 안정적인 학습을 위한 중요한 기술적 통찰이었다.1

2.2.3 멀티-헤드 어텐션 (Multi-Head Attention)

트랜스포머는 단일 어텐션을 사용하는 대신, Q, K, V를 h개(논문에서는 8개)의 서로 다른 선형 변환(linear projection)을 통해 여러 개의 ’헤드(head)’로 나누어 병렬적으로 어텐션을 수행한다.1 이는 마치 하나의 문장을 “문법적 관계”, “의미적 유사성”, “동의어 관계” 등 여러 다른 관점에서 동시에 분석하는 것과 같다. 각 헤드는 서로 다른 ’표현 부분 공간(representation subspaces)’에서 정보의 연관성을 학습하게 되며, 이렇게 얻어진 다양한 어텐션 결과들을 다시 하나로 합치고 선형 변환을 거쳐 최종 결과물을 만든다. 이 멀티-헤드 구조 덕분에 모델은 단어 간의 복잡하고 다층적인 관계를 훨씬 풍부하게 포착할 수 있다.1

2.2.4 위치 인코딩 (Positional Encoding)

재귀 구조를 완전히 제거하면서, 트랜스포머는 단어의 순서 정보를 잃어버릴 위험에 처했다. “나는 너를 사랑해“와 “너는 나를 사랑해“는 단어는 같지만 순서가 달라 의미가 완전히 다르다. 이를 해결하기 위해 트랜스포머는 ’위치 인코딩(Positional Encoding)’이라는 독창적인 방법을 도입했다. 각 단어의 임베딩 벡터에 해당 단어의 위치 정보를 담은 벡터를 더해주는 방식이다. 이 위치 벡터는 서로 다른 주기를 가진 사인(sine)과 코사인(cosine) 함수를 이용해 생성된다.11

PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{\text{model}}}) \\ PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{\text{model}}})
이 방식은 각 위치에 고유한 벡터 값을 부여할 뿐만 아니라, 모델이 단어 간의 상대적인 위치 관계를 쉽게 학습할 수 있도록 돕는다. 또한, 훈련 데이터에 없었던 더 긴 길이의 시퀀스가 입력으로 들어와도 위치 정보를 일반화하여 처리할 수 있는 유연성을 제공한다.14

2.3 성능 및 영향력: 새로운 시대의 서막

트랜스포머는 WMT 2014 영어-독일어 번역 태스크에서 27.5 BLEU라는 점수를 기록하며, 당시 최고 성능을 자랑하던 앙상블 모델조차 뛰어넘는 성과를 보였다.6 그러나 트랜스포머의 진정한 파급력은 성능 수치를 넘어 그 구조적 특성에 있었다. 재귀를 제거하고 어텐션 연산에 기반한 구조는 GPU를 활용한 대규모 병렬 처리에 최적화되어 있었고, 이는 기존 RNN 기반 모델 대비 훈련 시간을 획기적으로 단축시켰다.6

이러한 확장성은 AI 연구의 패러다임을 바꾸었다. 트랜스포머의 등장은 단순히 더 나은 번역 모델의 탄생을 의미하는 것이 아니었다. 그것은 거대한 데이터와 막대한 컴퓨팅 자원을 활용해 모델의 크기를 키우면 성능이 극적으로 향상될 수 있다는 ’스케일링 법칙(Scaling Law)’을 현실화할 수 있는 아키텍처적 청사진을 제시한 사건이었다. 실제로 이 아키텍처는 이후 BERT, GPT, T5 등 자연어 처리 분야를 송두리째 바꾼 대부분의 거대 언어 모델(LLM)의 근간이 되었다.1 2017년의 이 발표가 현재의 ’AI 붐’을 촉발한 직접적인 도화선이었다는 평가는 결코 과장이 아니다. 트랜스포머는 원래의 목표였던 번역 품질 개선을 넘어, AI 모델의 규모를 키움으로써 복잡한 추론이나 소수샷 학습(few-shot learning)과 같은 새로운 능력이 ’창발(emerge)’할 수 있는 가능성의 문을 열었다.

3. 강화학습, 인간의 지식을 넘어서다

2017년은 강화학습(Reinforcement Learning, RL) 분야에서도 두 개의 상징적인 이정표가 세워진 해였다. 딥마인드는 인간의 지식을 완전히 배제하고 신의 경지에 오른 ’알파고 제로’를 통해 강화학습이 도달할 수 있는 궁극적인 목표를 제시했고, OpenAI는 ’PPO’라는 실용적인 알고리즘을 통해 더 많은 연구자들이 그 목표를 향해 나아갈 수 있는 견고한 다리를 놓아주었다.

3.1 무(無)에서 시작한 신(神)의 경지: AlphaGo Zero와 AlphaZero

2017년 10월, 딥마인드는 학술지 Nature를 통해 ’알파고 제로(AlphaGo Zero)’를 공개하며 세계에 다시 한번 충격을 안겼다. 알파고 제로의 가장 혁명적인 지점은 학습 방식에 있었다. 이세돌 9단과 대결했던 ’알파고 리(AlphaGo Lee)’가 수많은 인간 프로기사의 기보를 학습 데이터로 사용했던 것과 달리, 알파고 제로는 오직 바둑의 규칙만을 입력받은 채 완전히 백지상태, 즉 ’타불라 라사(tabula rasa)’에서 학습을 시작했다.7 이는 AI가 더 이상 인간이 축적한 지식의 틀에 갇히지 않고, 스스로 경험을 통해 인간을 뛰어넘는 새로운 지식을 창조할 수 있음을 증명한 패러다임의 전환이었다.

알파고 제로의 핵심은 단일 심층 신경망과 몬테카를로 트리 탐색(MCTS)의 정교한 결합에 있다. 이전 버전이 다음 수를 예측하는 ’정책망(policy network)’과 승률을 예측하는 ’가치망(value network)’을 분리했던 것과 달리, 알파고 제로는 이 두 기능을 하나의 신경망으로 통합하여 학습 효율을 극대화했다.8 학습 과정은 다음과 같은 선순환 구조로 이루어진다.

  1. 현재의 신경망이 MCTS 탐색을 가이드한다. 신경망은 어떤 수가 유망한지에 대한 확률(정책)과 현재 국면의 승률(가치)을 제공한다.

  2. MCTS는 이 정보를 바탕으로 수많은 시뮬레이션을 수행하며 더 깊고 정확한 수읽기를 진행한다.

  3. MCTS 탐색이 끝난 후, 이 탐색 결과(더 정교해진 정책과 가치)를 정답으로 삼아 신경망을 다시 학습시킨다.

  4. 더 강력해진 신경망은 다음 자가 대국(self-play)에서 더 수준 높은 MCTS 탐색을 이끌어낸다.

이러한 자가 대국 강화학습을 통해 알파고 제로는 스스로를 스승 삼아 끊임없이 성장했다. 그 결과는 압도적이었다. 알파고 제로는 단 3일간의 학습만으로 알파고 리 버전을 100대 0이라는 경이로운 스코어로 완파했으며, 40일의 학습 후에는 당시 세계 최강자로 군림하던 ‘알파고 마스터’ 버전마저 능가했다. 더욱 놀라운 점은 이 모든 성과가 이전 버전보다 훨씬 적은 4개의 TPU만을 사용하여 이루어졌다는 사실이며, 이는 알고리즘의 압도적인 효율성을 방증한다.7

딥마인드는 여기서 멈추지 않고 2017년 12월, 알파고 제로의 접근법을 특정 게임에 국한되지 않는 범용 알고리즘 ’알파제로(AlphaZero)’로 일반화했다. 알파제로는 바둑뿐만 아니라 체스와 쇼기(일본 장기)에서도 단 몇 시간의 자가 학습만으로 각각의 분야에서 세계 최강의 AI 엔진이었던 스톡피쉬(Stockfish)와 엘모(Elmo)를 격파했다. 이는 알파제로의 학습 방식이 특정 도메인을 넘어 다양한 문제 해결에 적용될 수 있는 강력한 일반성을 지녔음을 입증한 사건이었다.2

3.2 안정성과 효율성의 균형: Proximal Policy Optimization (PPO)

알파고 제로가 강화학습의 이상적인 목표를 보여주었다면, 같은 해 OpenAI는 그 목표에 도달하기 위한 현실적인 방법론을 제시했다. 2017년 7월, John Schulman 등이 발표한 ‘Proximal Policy Optimization (PPO)’ 알고리즘은 강화학습 연구의 풍경을 바꾼 실용적인 돌파구였다.9

기존의 정책 경사(Policy Gradient) 방법들은 학습 과정에서 정책(policy)이 한 번에 너무 크게 업데이트될 경우, 성능이 급격히 나빠져 회복 불가능한 상태에 빠지는 불안정성 문제를 안고 있었다. 이를 해결하기 위해 제안된 TRPO(Trust Region Policy Optimization)는 정책 업데이트가 특정 ‘신뢰 영역(trust region)’ 내에서 이루어지도록 제한하여 안정성을 확보했지만, 복잡한 2차 최적화(second-order optimization) 계산 때문에 구현이 어렵고 계산 비용이 매우 높다는 단점이 있었다.20

PPO는 TRPO의 핵심 아이디어인 ’정책을 급격히 바꾸지 않는다’는 원칙을 훨씬 단순한 방식으로 구현했다. 그 핵심은 ’Clipped Surrogate Objective Function’이라는 새로운 목적 함수에 있다.9 이 함수는 새로운 정책(\pi_{\theta})과 이전 정책(\pi_{\theta_{old}})의 행동 확률 비율(r_t(\theta))이 미리 정해진 작은 범위, 예를 들어 $ [1-\epsilon, 1+\epsilon] $ (보통 \epsilon=0.2)를 벗어날 경우, 이득(Advantage, \hat{A}_t)에 대한 기여도를 잘라버리는(clipping) 방식으로 작동한다.

즉, 어떤 행동이 예상보다 훨씬 좋은 결과를 낳더라도 정책 업데이트의 크기를 일정 수준으로 제한하여, 학습 과정이 한 번의 ’대박’에 의해 불안정해지는 것을 막는다. 이 클리핑 메커니즘은 복잡한 2차 최적화 없이 1차 경사 상승법(gradient ascent)만으로도 안정적인 학습을 가능하게 했다.20

PPO는 TRPO와 대등한 성능을 보이면서도 구현이 매우 간단하고, 하이퍼파라미터에 덜 민감하며, 데이터 효율성도 높아 순식간에 강화학습 연구의 ’사실상 표준(de facto standard)’으로 자리매김했다. OpenAI의 기본 강화학습 알고리즘으로 채택되었을 뿐만 아니라 20, 전 세계 수많은 연구자들이 복잡한 이론적 장벽 없이 강력한 정책 최적화 기법을 자신의 연구에 적용할 수 있는 길을 열어주었다. 알파고 제로가 강화학습의 가능성이라는 ’지평’을 넓혔다면, PPO는 더 많은 연구자들이 그 지평을 향해 나아갈 수 있는 ’넓은 길’을 닦은 셈이다.

4. AI와 인간의 관계 재정립: 상호작용과 사회적 인식

2017년은 AI 기술의 비약적인 발전과 더불어, 인공지능을 사회적 존재로 인식하고 그 관계를 탐구하려는 노력이 본격화된 시기이기도 하다. 기술의 진보가 사회에 미치는 영향을 분석하는 인문사회학적 연구와, 인간과 효과적으로 상호작용하는 AI를 만들려는 공학적 노력이 교차하며 새로운 담론을 형성했다.

4.1 알파고 의인화(Anthropomorphism) 분석 (2017년 8월)

2017년 8월 한국언론학보에 게재된 한 연구는 2016년 이세돌-알파고 대국 당시 국내 언론 보도에 나타난 알파고의 ‘의인화’ 현상을 심층적으로 분석했다.3 이 연구는 AI라는 비인간 행위자가 대중에게 어떻게 인식되고 의미가 부여되는지를 사회과학적 방법론으로 탐구했다는 점에서 시사하는 바가 크다.

분석 결과, 언론은 알파고에 세 가지 유형의 의인화 특성을 부여한 것으로 나타났다. 첫째, ‘전투’, ‘형세 판단’, ’대국’과 같은 용어를 통해 알파고가 마치 인간 기사처럼 특정 행위를 수행하는 주체로 묘사하는 행위적 의인화가 나타났다. 둘째, ‘바둑 고수’, ‘바둑 신동’, ’전략가’와 같이 인간 사회의 특정 역할을 부여하는 캐릭터적 의인화가 두드러졌다. 마지막으로, ‘판단 능력’, ’추론 능력’을 넘어 심지어 ’감정 능력’까지 있는 것처럼 묘사하며 인간의 내적 인지 과정을 투영하는 인지적 의인화가 발견되었다.3

이러한 의인화는 단순히 흥미로운 수사법에 그치지 않는다. 연구는 의인화가 AI와의 ’기계적 인터페이스’를 ’사회적 상호작용의 인터페이스’로 전환시키는 중요한 통로 역할을 한다고 분석했다.3 즉, 사람들은 AI를 인간처럼 느낌으로써 더 쉽게 이해하고 관계를 맺으려 한다는 것이다. 이 현상은 AI가 기술적 실체를 넘어 사회적, 심리적 실체로 받아들여지는 과정을 보여준다. 2017년에 이미 관찰된 이러한 경향은, 기술의 성능과 별개로 사회가 AI를 이해하고 받아들이는 방식에 대한 깊은 성찰이 필요함을 시사한다. AI의 기능이 고도화될수록, 대중은 그 내부 메커니즘보다는 의인화된 페르소나를 통해 AI와 관계를 맺을 가능성이 높다. 이는 오늘날 LLM에 대한 대중의 반응, 즉 마치 의식이 있는 존재와 대화하는 듯한 태도에서도 명확히 드러나는 현상이며, AI 윤리학과 심리학 연구의 중요성을 예고한 선구적인 분석이었다.

4.2 “친근한 로봇“을 향한 학계의 관심

AI에 대한 사회적 인식의 변화는 로봇 공학계의 연구 방향에도 영향을 미쳤다. 2017년 9월 캐나다 밴쿠버에서 열린 세계 최고 권위의 로봇 학술대회인 IROS 2017의 대주제는 “Friendly People, Friendly Robots(친근한 사람들, 친근한 로봇들)“였다.23 이는 로봇 공학의 초점이 단순히 기계의 성능을 높이는 것을 넘어, 인간과 안전하고 효과적으로 공존하며 협력하는 시스템을 만드는 것으로 이동하고 있음을 상징적으로 보여준다.

컨퍼런스의 기조연설들은 이러한 흐름을 명확히 했다. 특히 Maja Mataric 교수의 “Automation vs. Augmentation: Defining the Future of Socially Assistive Robotics” 연설은 주목할 만하다. 이 연설은 로봇이 인간의 일을 ’대체’하는 자동화(Automation)를 넘어, 인간 스스로가 과업을 더 잘 수행하도록 사회적 상호작용을 통해 돕고 동기를 부여하는 ’증강(Augmentation)’의 역할을 해야 한다는 비전을 제시했다.24 이러한 ‘사회적 보조 로봇(Socially Assistive Robotics, SAR)’ 개념은 재활 치료를 돕는 로봇, 자폐 아동의 사회성 발달을 돕는 로봇 등 물리적인 힘이 아닌 정서적, 사회적 교감을 통해 인간에게 도움을 주는 로봇 연구의 중요성을 부각시켰다.

이는 2017년의 기술 개발자들이 로봇이 더 이상 공장 안의 격리된 기계가 아니라, 병원, 가정, 도로 등 인간의 삶 속으로 깊숙이 들어오고 있음을 인식하고 있음을 보여준다. 따라서 로봇의 움직임을 예측 가능하게 만들고, 인간의 의도를 파악하며, 자연스러운 방식으로 소통하는 기술, 즉 ’친근함’을 구현하는 것이 로봇 공학의 핵심 과제로 부상하기 시작한 것이다.23

5. 2017년 주요 로봇 및 AI 학술대회 동향

2017년은 학술대회를 통해 새로운 연구 패러다임이 제시되고 기술적 성과가 공유되며 미래 방향성이 논의된 역동적인 한 해였다. 특히 하드웨어의 발전, 로봇 공학의 응용 확대, 그리고 AI 핵심 알고리즘의 등장이 서로 맞물리며 시너지를 창출했다.

학술대회명 (Conference)개최 시기/장소 (Date/Location)주요 주제 및 특징 (Key Themes & Features)주목할 만한 발표/논문 (Notable Presentations/Papers)
GTC 20172017.5 / 산호세GPU 컴퓨팅, AI 하드웨어 가속NVIDIA ‘볼타(Volta)’ 아키텍처 및 Tesla V100 GPU 공개
ICRA 20172017.5 / 싱가포르로봇 비전, 다개체 시스템, 자율 주행“The Robotarium”, “Self-supervised Visual Descriptor Learning”
IROS 20172017.9 / 밴쿠버“Friendly People, Friendly Robots”, HRI사회적 보조 로봇(SAR) 기조연설, “Online Visual Robot Tracking…”
NIPS 20172017.12 / 롱비치딥러닝, 강화학습, 어텐션 메커니즘“Attention Is All You Need” 공식 발표
세계 로봇 컨퍼런스2017.8 / 베이징지능형 사회, 로봇 산업 및 응용산업, 서비스, 특수 로봇 전시 및 기술 포럼

5.1 국제 로봇 학술대회: ICRA & IROS

2017년 로봇 공학 분야의 양대 산맥인 ICRA와 IROS에서는 로봇의 자율성과 인간과의 상호작용 능력을 한 단계 끌어올리려는 연구들이 두드러졌다.

5월 싱가포르에서 열린 ICRA 2017에서는 접근성과 학습 능력에 대한 중요한 성과가 발표되었다. ’Best Multi-Robot Systems Paper Award’를 수상한 조지아 공대의 “The Robotarium: A Remotely Accessible Swarm-Robotics Research Test Bed” 논문은 수많은 로봇으로 구성된 고가의 군집 로봇 테스트베드를 원격으로 누구나 이용할 수 있는 개방형 플랫폼으로 구축하여, 관련 연구의 진입 장벽을 획기적으로 낮춘 공로를 인정받았다.25 또한, 워싱턴 대학교 연구진이 ’Best Robotic Vision Paper’를 수상한 “Self-supervised Visual Descriptor Learning for Dense Correspondence“는 대규모의 인간 레이블링 데이터 없이, 로봇이 스스로 RGB-D 비디오 데이터를 활용해 환경의 시각적 특징을 학습하는 자기지도학습(self-supervised learning) 프레임워크를 제시했다. 이는 로봇이 낯선 환경에서도 스스로 적응하고 대상을 인식하는 능력의 기반을 마련한 중요한 연구였다.26

9월 밴쿠버에서 열린 IROS 2017은 “Friendly People, Friendly Robots“라는 주제 아래 인간-로봇 상호작용(HRI)을 전면에 내세웠다.23 기조연설들은 사회적 보조 로봇(SAR), 비언어적 상호작용을 통한 협업 등 인간과 로봇의 사회적 관계 맺기에 초점을 맞추었다.24 ’RoboCup Best Paper Award’를 수상한 “Online Visual Robot Tracking and Identification using Deep LSTM Networks“는 딥러닝을 이용해 외관이 동일한 여러 로봇을 실시간으로 추적하고 개별적으로 식별하는 기술을 선보여, 다중 로봇 협업 시스템의 강건성을 높이는 데 기여했다.27

5.2 AI 및 하드웨어 컨퍼런스: NIPS, GTC, etc.

AI 알고리즘과 이를 뒷받침하는 하드웨어의 발전은 2017년의 혁신을 이끈 두 개의 엔진이었다.

12월 롱비치에서 개최된 NIPS 2017 (現 NeurIPS)은 “Attention Is All You Need” 논문이 공식적으로 발표된 무대였다. 이 발표를 기점으로 어텐션 기반의 트랜스포머 아키텍처는 학계의 폭발적인 관심을 받으며 자연어 처리 연구의 주류로 급부상했다.6

이에 앞서 5월 산호세에서 열린 NVIDIA GTC 2017은 이러한 알고리즘 혁신을 가능하게 한 물리적 기반을 제시했다. NVIDIA는 이 행사에서 딥러닝의 핵심 연산인 행렬 곱셈을 가속하는 ’텐서 코어(Tensor Core)’를 탑재한 새로운 ‘볼타(Volta)’ 아키텍처와 이를 기반으로 한 Tesla V100 GPU를 공개했다.28 이는 이전 세대 대비 월등한 딥러닝 성능을 제공하며, 트랜스포머나 알파고 제로와 같이 계산 집약적인 대규모 모델의 훈련을 현실적으로 가능하게 만들었다. 알고리즘의 복잡성 증가는 더 강력한 하드웨어를 요구하고, 발전된 하드웨어는 다시 더 야심 찬 알고리즘의 등장을 촉진하는 강력한 ’하드웨어-알고리즘 공진화(co-evolution)’의 선순환 고리가 2017년에 본격적으로 형성되기 시작한 것이다.

한편, 국내에서도 ‘인공지능 국제 컨퍼런스 2017’, ‘서울 AI 컨퍼런스’ 등 다양한 행사가 개최되며 4차 산업혁명의 핵심 동력으로서 AI에 대한 높은 사회적 관심을 반영했다.29 이는 AI 기술이 더 이상 소수 연구자의 영역이 아닌, 산업과 정책의 핵심 의제로 부상했음을 보여준다.

6. 결론: 2017년의 유산과 차세대 AI 시대로의 도약

2017년은 인공지능 역사에서 하나의 이정표를 넘어, 현재 우리가 경험하는 AI 시대의 문을 연 결정적인 분기점이었다. 본 보고서에서 심층 분석한 세 가지 핵심 혁신은 각각 현대 AI의 근간을 이루는 기둥을 세웠다.

첫째, 트랜스포머는 ’확장 가능한 아키텍처(Scalable Architecture)’의 시대를 열었다. 순차 처리의 족쇄를 끊어낸 병렬적 구조는 모델의 크기를 키울수록 성능이 향상된다는 ’스케일링 법칙’을 현실화할 수 있는 토대를 제공했다. 이는 GPT와 BERT로 이어져 현재의 생성형 AI 혁명을 직접적으로 촉발한 기술적 원천이 되었다.

둘째, 알파고 제로는 ’초인적 성능 패러다임(Superhuman Performance Paradigm)’을 제시했다. 인간의 지식이라는 한계를 벗어나 ’무(無)’에서부터 스스로 학습하여 인간을 초월하는 경지에 도달할 수 있음을 증명했다. 이 tabula rasa 접근법은 이후 단백질 구조 예측(알파폴드), 신약 개발 등 인류의 난제를 해결하는 데 AI를 활용하는 새로운 길을 열었다.

셋째, PPO는 ’실용적 학습 방법론(Practical Training Methodology)’을 확립했다. 복잡하고 불안정했던 강화학습 알고리즘을 누구나 쉽게 구현하고 안정적으로 훈련할 수 있도록 만들어, 로보틱스, 자율주행, 게임 AI 등 다양한 분야에서 강화학습의 적용을 가속화하고 대중화하는 데 결정적인 기여를 했다.

결론적으로 2017년은 AI가 인간의 지식을 학습하고 모방하는 단계를 넘어, 스스로 지식을 창조하고 인간의 능력을 넘어서는 새로운 시대로 진입했음을 알린 원년이다. 동시에 알파고에 대한 사회적 반응과 IROS 2017의 주제에서 보듯, 고도화된 기술과 인간 사회의 관계를 어떻게 설정할 것인가에 대한 윤리적, 사회적 고민이 본격적으로 시작된 해이기도 하다.3 2017년의 유산은 기술적 진보와 사회적 성찰이라는 두 축으로 현재까지 이어지며, 미래 AI 연구의 방향성을 끊임없이 제시하고 있다.

7. 참고 자료

  1. Attention Is All You Need - Wikipedia, https://en.wikipedia.org/wiki/Attention_Is_All_You_Need
  2. 12 Amazing Deep Learning Breakthroughs of 2017 - TOPBOTS, https://www.topbots.com/12-amazing-artificial-intelligence-deep-learning-breakthroughs-2017/
  3. AI 로봇 의인화 연구 - 광고정보센터, https://www.adic.or.kr/lit/paper/download.xhr?objectType=LP&objectUkey=150356&fileName=150356.pdf
  4. 2017년 세계 로봇 컨퍼런스 베이징서 개최 (3) - 인민망 한국어판, http://kr.people.com.cn/n3/2017/0828/c207467-9261086-3.html
  5. (2017세계 로봇 컨퍼런스) 조심하세요! 로봇들이 다가오고 있어요 - 신화망, http://kr.xinhuanet.com/2017-08/28/c_136554791.htm
  6. Attention is All you Need - NIPS, https://papers.nips.cc/paper/7181-attention-is-all-you-need
  7. AlphaGo Zero - Wikipedia, https://en.wikipedia.org/wiki/AlphaGo_Zero
  8. AlphaGo Zero: Starting from scratch - Google DeepMind, https://deepmind.google/discover/blog/alphago-zero-starting-from-scratch/
  9. Proximal Policy Optimization - Toloka, https://toloka.ai/blog/proximal-policy-optimization/
  10. Proximal Policy Optimization Algorithms, https://arxiv.org/abs/1707.06347
  11. Attention is All you Need - NIPS, https://papers.neurips.cc/paper/7181-attention-is-all-you-need.pdf
  12. Improving Language Understanding by Generative Pre-Training - OpenAI, https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
  13. [1706.03762] Attention Is All You Need - arXiv, https://arxiv.org/abs/1706.03762
  14. Attention is All you Need - NIPS, https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf
  15. (PDF) Attention is All you Need (2017) | Ashish Vaswani | 88778 Citations - SciSpace, https://scispace.com/papers/attention-is-all-you-need-1hodz0wcqb
  16. Language Models are Unsupervised Multitask Learners | OpenAI, https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
  17. Mastering the Game of Go without Human Knowledge - UCL Discovery, https://discovery.ucl.ac.uk/10045895/1/agz_unformatted_nature.pdf
  18. Google DeepMind - Wikipedia, https://en.wikipedia.org/wiki/Google_DeepMind
  19. Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm arXiv:1712.01815v1 [cs.AI] 5 Dec 2017, https://arxiv.org/pdf/1712.01815
  20. Proximal policy optimization - Wikipedia, https://en.wikipedia.org/wiki/Proximal_policy_optimization
  21. Trust Region-Guided Proximal Policy Optimization, http://papers.neurips.cc/paper/8352-trust-region-guided-proximal-policy-optimization.pdf
  22. Proximal Policy Optimization — Spinning Up documentation - OpenAI, https://spinningup.openai.com/en/latest/algorithms/ppo.html
  23. IROS 2017, Vancouver, Canada - Home, https://ewh.ieee.org/conf/iros/2017/iros2017.org/index.html
  24. IROS 2017, Vancouver, Canada - Plenaries and Keynotes, https://ewh.ieee.org/conf/iros/2017/iros2017.org/program/plenaries-and-keynotes.html
  25. IRIM Team Awarded ICRA Best Paper Award | School of Electrical …, https://ece.gatech.edu/news/2023/12/irim-team-awarded-icra-best-paper-award
  26. Allen School researchers earn Best Robotic Vision Paper at ICRA 2017, https://news.cs.washington.edu/2017/06/06/allen-school-researchers-earn-best-robotic-vision-paper-at-icra-2017/
  27. IROS 2017 RoboCup Best Paper Award - RoboCup Federation, https://www.robocup.org/news/39
  28. 엔비디아, ‘GPU 테크놀로지 컨퍼런스 2017’ 주요 이슈와 성과 결산 - 인공지능신문, https://www.aitimes.kr/news/articleView.html?idxno=9575
  29. 인공지능의 현재와 미래…‘2017 인공지능 국제 컨퍼런스’ 개최 - 뉴스메카, http://www.newsmc.net/news/articleView.html?idxno=36655
  30. [영상BIG뉴스] 인공지능 국제 컨퍼런스 2017 ① : 이경일 대표, https://www.thebigdata.co.kr/view.php?ud=2017122109020381197b682bb492_23
  31. [서울 AI 컨퍼런스] 세션3 패널 소개 | 정책세미나영상 | KDI 경제교육·정보센터, https://eiec.kdi.re.kr/publish/archView.do?seq=12&dtl_seq=22&pg=&pp=&search_txt=&issue_code=